Introdução

Por que aprender Estatística?

Jornais, revistas, noticiários da TV estão repletos de informações obtidas através de pesquisas de opinião, pesquisas médicas, estudos econômicos, estudos ambientais, estatísticas sobre uma pandemia.

Números e conclusões tiradas a partir deles são cada vez mais comuns no dia-a-dia.

No meio de tantos dados e informações, o que levar em conta e o que descartar?

Estamos na era da informação e a Estatística trabalha no uso da informação para tomada de decisão.

Alguns exemplos

  • Como predizer o número de casos/óbitos por COVID-19?

  • Como analisar se um tratamento é realmente eficaz para uma certa doença? Exemplo: uso da cloroquina/hidroxicloroquina no combate à COVID-19?

  • Qual sua chance de ganhar na megasena?

  • Há preconceito contra as mulheres para cargos de chefia?

  • Qual a chance de um cliente do banco não pagar um empréstimo?

Sistemas de Recomendação

Como o Netflix sabe que tipo de filmes/séries você gosta?


Recomendações personalizadas: serviços de streaming, como o Netflix e Spotify, devem muito do seu sucesso às técnicas dessa área.

Reconhecimento Facial

Reconhecimento Facial: usado para desbloquear dispositivos, organizar fotos, etc.

Pensamento Estatístico

No livro Mankind in the Making, de 1903, H.G. Wells escreveu:

“… e não estamos muito longe do tempo em que se entenderá que, para exercermos a cidadania de maneira eficiente, será tão necessário saber calcular e pensar em médias, máximos e mínimos, quanto é agora necessário saber ler e escrever.”

Motivação

Vieira, Sonia (2018). Estatística Básica, 2a Edição, CENGAGE:


“Não é demais afirmar que a Estatística está no cerne do raciocínio necessário para que acontençam importantes avanços nas ciências ou para que sejam tomadas decisões importantes nos negócios e nas políticas públicas. Portanto, o tempo despendido ao estudo da Estatística é um investimento sólido para o futuro acadêmico e profissional das pessoas.”

Razões para se estudar Estatística

  • Adquirir capacidade para ler assuntos técnicos, presentes, por exemplo, em jornais, revistas e relatórios.

  • A necessidade de ser um consumidor informado. Poder fazer uma análise crítica de resultados apresentados em diferentes fontes.

  • Aprender como pautar decisões.

  • Desenvolver a capacidade de crítica e de análise.

  • Adquirir conhecimento sobre o trabalho dos estatístico e compreender o papel desses profissionais.

Estatística

A Estatística é um conjunto de técnicas que permite, de forma sistemática, organizar, descrever, analisar e interpretar dados oriundos de estudos ou experimentos, realizados em qualquer área do conhecimento.

Estatística é a arte de aprender através de dados.

Três aspectos principais da estatística:

  • Planejamento: planejar como obter os dados para responder às perguntas de interesse.
  • Descrição: resumir os dados obtidos.
  • Inferência: tomar decisões e fazer predições baseando-se nos dados.

Por que usar métodos estatísticos?

Os tópicos de estudo de um certo pesquisador são tão diversos quanto as perguntas de interesse.

Muitas vezes esses estudos podem ser realizados com técnicas simples de amostragem, análise de dados e conceitos fundamentais de inferência estatística.

Com isso, a Estatística pode trabalhar em parceria com qualquer área do conhecimento, planejando experimentos, auxiliando na coleta de amostras representativas, resumindo e analisando seus dados, tirando conclusões a partir de experimentos.

Estatística aplicada nas mais diversas áreas

  • Meio Ambiente
  • Pesquisa de Mercado
  • Big Data
  • Informática/Telecomunicação
  • Agronegócio
  • Hospitais e Pesquisa Médica
  • Mercado Financeiro
  • Indústria
  • Biomedicina/Indústria Farmacêutica
  • Instituições de Ensino e Pesquisa

Ética e Estatística

  • Exemplos do mau uso da estatística para maquiar dados e abalizar opiniões.

  • Aponta como os gráficos estatísticos, mesmo matematicamente corretos, podem não representar em nada a realidade.

  • Mostra como uma mesma projeção pode mostrar um futuro positivo ou alarmante, dependendo da amplitude de dados que ela cobre.

Questione sobre o uso de números ou informações absurdas.

??

Alguns Conceitos Importantes

População

População: é o conjunto de elementos que apresentam uma ou mais características em comum, cujo comportamento interessa analisar.

Recenseamento: consiste no processo de se coletar dados de toda uma população.

Censo: é o conjunto de informações, ou seja de dados relativos a todos os elementos da população objeto de estudo.

Fatores limitantes para o recenseamento: populações infinitas, custo, tempo, processos destrutivos, …

Amostra

Amostra: é um subconjunto da população objeto de estudo.

Amostragem: é um conjunto de técnicas para se obter amostras da população.

Parâmetro vs Estimativa

Parâmetro: é um valor ou uma medida numérica que descreve uma característica populacional. (são valores estabelecidos para a população);

Estimativa: é um valor ou uma medida que descreve uma característica de uma amostra (são medidas ou valores estabelecidos para uma amostra).

Exemplos

Estudo de Caso: stents e prevenção de infarto

Problema comum em medicina: como avaliar a eficácia de um procedimento médico?

Estudo: stents são eficazes no tratamento de pacientes com risco de infarto?

Stents são usados para a recuperação de pacientes que já sofreram infarto.


Os pesquisadores do estudo investigaram se havia benefícios também para pacientes com risco de infarto.

Pergunta de interesse: O uso de stent reduz o risco de infarto?

Estudo de Caso: stents e prevenção de infarto

Estudo: Os pesquisadores coletaram dados de 451 pacientes com risco de infarto que se voluntariaram para o estudo.


Cada paciente foi alocado aleatoriamente em um dos grupos:

  • Grupo de Tratamento: paciente recebe stent e medicação.
  • Grupo Controle: paciente recebe a mesma medicação do grupo tratamento, mas não recebe stent.

Estudo de Caso: stents e prevenção de infarto

Cada paciente foi avaliado em duas ocasiões: primeiros 30 dias e após 1 ano.


Avaliar cada paciente individualmente desta planilha de dados é eficaz?

Como poderíamos resumir?

Estudo de Caso: stents e prevenção de infarto

Veja a tabela ao lado com os resultados.

Dentre os 224 pacientes do grupo tratamento:

  • 33 pacientes tiveram infarto durante os primeiros 30 dias.
  • 45 pacientes tiveram infarto durante o primeiro ano.

Qual a proporção de pacientes do grupo tratamento que sofreram infarto durante o primeiro ano?

\[\frac{45}{224} = 0.2 = 20\%\]

Podemos calcular estatísticas sumárias a partir da tabela.

Estudo de Caso: stents e prevenção de infarto

Estatística Sumária: número obtido a partir de informações dos dados coletados para resumí-los.



Proporção de pacientes do grupo tratamento que sofreram infarto: \(\displaystyle \frac{45}{224} = 0.2 = 20\%\)

Proporção de pacientes do grupo controle que sofreram infarto: \(\displaystyle \frac{28}{227} = 0.12 = 12\%\)

No grupo tratamento, temos 8% a mais de pacientes que sofreram infarto.

Estudo de Caso: stents e prevenção de infarto

Relembrando a pergunta de interesse.
Pergunta de interesse: O uso de stent reduz o risco de infarto?

O resultado observado está de acordo com a expectativa dos pesquisadores?

8% é uma diferença considerável?

Uma diferença de 8% poderia acontecer ao acaso, mesmo que os dois tratamentos na verdade oferecessem o mesmo risco de infarto?

Utilizando metodologia estatística, os pesquisadores chegaram à conclusão de que stents não servem para previnir novos infartos.

Razão médica: o stent só resolve o fluxo sanguíneo naquela artéria específica lesionada, mas o paciente continua sendo de alto risco para infarto pois a doença está disseminada.

Estudo de Caso: stents e prevenção de infarto



CUIDADO!


Não podemos generalizar os resultados do estudo para todo tipo de paciente e todo tipo de stent.

Exemplo: Dados do Censo

Exemplo: spam

Suponha que extraímos informações de 50 emails recebidos e armazemos esses dados numa tabela. Esse é um conjunto de dados.

Primeiras linhas do conjunto de dados
spam characters lineBreaks format number
no 21705 551 1 small
no 7011 183 1 big
yes 631 28 0 none
no 2454 61 0 small
no 41623 1088 1 small
no 57 5 0 small
no 809 17 0 small
no 5229 88 1 small

Exemplo: spam

Cada linha representa um email recebido.

Colunas:

  • spam: yes se spam e no caso contrário.

  • characters: número de caracteres no email.

  • lineBreaks: número de quebras de linha no email.

  • format: 1 se formato é HTML, 0 caso contrário.

  • number: indica se o email não continha nenhum número (none), um número pequeno (small) ou um número grande (big).

Análise Descritiva

Análise Descritiva

Análise descritiva se refere a métodos para resumir e descrever os dados.

É o primeiro passo antes de qualquer análise estatística!

Dados aqui refere-se à informação contida na amostra, ou seja, a que foi coletada de um experimento, uma pesquisa, um registro histórico, etc.

Resumo dos dados pode ser feito por meio de:

  • métricas quantitativas: estatísticas sumárias como média, mediana, desvio padrão, proporções.
  • ferramentas visuais: gráficos.

A técnica adequada depende do tipo de variável.

Estrutura básica dos dados

Para que possamos resumir os dados, é importante primeiramente entender como eles são organizados e também os diversos tipos de cada variável.

Variável é uma condição ou característica de um elemento de estudo. Pode assumir valores diferentes em diferentes elementos.

Tipos de Variáveis

Exemplos: peso, altura, curso.

Veja que para cada pessoa, os valores não necessariamente são os mesmos.

Tipos de Variável

Qualitativa

  • Nominal: Não existe ordenação.
    Ex: sexo, estado civil, profissão.

  • Ordinal: Existe uma certa ordem.
    Ex: escolaridade, estágio da doença, classe social.


Quantitativa

  • Discreta: os valores possíveis formam um conjunto enumerável (finito ou infinito). Ex: número de filhos, números de ovos de Páscoa que você comeu.

  • Contínua: os valores possíveis estão dentro de um intervalo, aberto ou fechado, dos números reais. Ex: peso, altura, salário.

Tipos de Variável

Suponha que nós aplicamos um questionário entre os alunos de ME951 e coletamos várias informações sobre vocês.

Cada pergunta se refere a uma variável, que pode ter valores diferentes para cada um de vocês.

Dentre outras coisas, perguntamos sobre as seguintes variáveis:

  • Número de irmãos
  • Altura
  • Se já fez algum curso de estatística anteriormente


Qual o tipo de cada variável?

Fonte de dados

Análise Univariada

Análise Descritiva Univariada

A análise descritiva univariada consiste basicamente em, para cada uma das variáveis individualmente:

  • classificar a variável quanto a seu tipo: qualitativa (nominal ou ordinal) ou quantitativa (discreta ou contínua)

  • obter tabela, gráfico e/ou medidas resumo apropriados

A partir destes resultados pode-se montar um resumo geral dos dados.

Na aula de hoje, falaremos sobre tabelas e gráficos apropriados para cada tipo de variável.

Exemplo: SleepStudy

Para ilustrar as diferentes técnicas usadas em análise descritiva, vamos utilizar o conjunto de dados chamado SleepStudy.

Esses dados referem-se a um estudo de padrões de sono para estudantes universitários.

Os dados foram obtidos de uma amostra de 253 alunos universitários que fizeram testes de habilidades para medir função cognitiva.

Todos os participantes completaram uma pesquisa, na qual responderam questões sobre atitudes e hábitos. Eles também mantiveram um diário para registrar o tempo e a qualidade do sono durante um período de duas semanas.

Nesse conjunto de dados encontramos todos os tipos de variáveis.

Exemplo: SleepStudy

Iremos selecionar algumas variáveis de cada tipo:

  • Gênero (Gender): categórica nominal

  • Autodeclaração de uso de álcool (AlcoholUse) e nível de ansiedade (AnxietyStatus): categórica ordinal

  • Número de aulas na semana antes das 9am (NumEarlyClass) e número de bebidas alcoólicas por semana (Drinks): quantitativa discreta

  • Média de horas de sono em todos os dias (AverageSleep) e score de cognição (CognitionZscore): quantitativa contínua

Resumindo Dados Qualitativos

Variável Categórica Nominal

A variável gênero (Gender) é do tipo categórica (qualitativa) nominal.

Para resumir esse tipo de variável começamos por uma tabela de frequências e também podemos representar as frequências num gráfico de barras ou de pizza (setores).

Tabela de frequência: listas todos os valores possíveis e contar quantas vezes cada um aparece.

Tabela de Frequências
Gênero Freq. Absoluta Freq. Relativa
female 151 0.597
male 102 0.403

Tabelas de Frequência

Frequência (ou Frequência absoluta) é o número de ocorrências de uma categoria (contagem).

Frequência relativa (ou proporção de uma categoria) é o quociente entre a frequência dessa categoria e o total:

\[\textrm{Frequência relativa} = \frac{\textrm{Frequência }}{\textrm{Total}}.\]

As frequências relativas são, em geral, apresentadas em porcentagem, multiplicando a proporção calculada por 100:

\[\textrm{Porcentagem} = (\textrm{Frequência relativa}) \times 100.\]

Gráfico de Barras

Gráfico de barras

  • Técnica visual para resumir dados categóricos.

  • É uma representação gráfica da tabela de frequências absolutas ou frequências relativas.

Exemplo: Doctor Who

Qual ator atuou no maior número de episódios da série Doctor Who?

Tabela de Frequências Absolutas e Relativas
Ator Freq. Absoluta Freq. Relativa
William Hartnell 136 0.157
Patrick Troughton 127 0.147
Jon Pertwee 129 0.149
Tom Baker 173 0.200
Peter Davison 70 0.081
Colin Baker 35 0.041
Sylvester McCoy 42 0.049
Christopher Ecclestone 20 0.023
David Tennant 52 0.060
Matt Smith 51 0.059
Peter Capaldi 29 0.034


Fonte: Informações do site IMDB (1963-1989, 2005-2015)

Exemplo: Doctor Who

Veja o gráfico de barras representando a tabela de frequências absolutas.

Exemplo: Doctor Who

Veja o gráfico de barras representando a tabela de frequências relativas.

Variável Categórica Ordinal

A variável AnxietyStatus é uma variável categórica (qualitativa) ordinal, ou seja, são categorias cuja ordem é relevante.

Assim como na variável categórica nominal, podemos utilizar as frequências absolutas e relativas para resumir os dados. Visualmente, representamos essa variável com um gráfico de barras.

Tabela de Frequências
Anxiety Status Freq. Absoluta Freq. Relativa
normal 181 0.715
moderate 56 0.221
severe 16 0.063

Resumindo Dados Quantitativos

Variável Quantitativa Discreta

Quantitativa Discreta: conjunto enumerável (finito ou infinito) de valores possíveis.

Exemplo: Nos dados SleepStudy, a variável NumEarlyClass representa o número de aulas por semana antes das 9am, sendo então quantitativa discreta.

Nesse caso, assim como nas variáveis categóricas, podemos apresentar uma tabela de frequências absolutas e/ou relativas.

Número de Aulas Freq. Absoluta Freq. Relativa
0 85 0.336
1 14 0.055
2 88 0.348
3 35 0.138
4 11 0.043
5 20 0.079

Variável Quantitativa Discreta

As frequências absolutas ou relativas podem ser apresentadas num gráfico de barras.

É comum esses universitários terem aulas antes das 9h da manhã?

Variável Quantitativa Discreta

Exemplo: Nos dados SleepStudy, outra variável quantitativa discreta é Drinks (número de bebidas alcoólicas por semana).

Poderíamos também aqui apresentar uma tabela de frequências absolutas e/ou relativas.

## 
##  0  1  2  3  4  5  6  7  8  9 10 12 13 14 15 18 20 24 
## 33  9 16 30 18 31 23 22 14 11 26  9  3  1  3  1  2  1

Porém, nesse caso, veja que são muitos valores possíveis e apresentá-los numa tabela não é a melhor alternativa.

Variável Quantitativa Discreta

Esse gráfico pode ser feito também usando frequências relativas.

Variáveis Quantitativas Contínuas

Quantitativa Contínua: os valores possíveis estão dentro de um intervalo dos números reais.

Faz sentido estudar a distribuição de frequências de uma variável contínua?

No exemplo do SleepStudy, a variável AverageSleep representa a média de horas de sono para todos os dias, sendo então quantitativa contínua.

Podemos listar todos os valores possíveis e contar quantas vezes cada valor ocorre? Isso seria eficiente?

Existem diferentes tipos de gráficos para esse tipo de variável, mas aqui vamos estudar dois muito usados:

  • Histograma
  • Boxplot (próxima aula)

Histograma

Histograma é uma representação gráfica de uma variável contínua.

Pode-se dizer que é semelhante a um gráfico de frequências para variáveis discretas. Porém, aqui os dados contínuos são agrupados em classes disjuntas e o histograma representa a frequência de dados em cada classe.

Exemplo: Suponha que a variável seja a idade de um grupo de 100 pessoas.

Em vez de calcular as frequências de cada idade individualmente, calculamos as frequências por faixas etárias: (30, 35], (35, 40], …, (80, 85], (85, 90].

Construção de um Histograma

Assista ao vídeo da Khan Academy sobre como criar um histogram:

https://youtu.be/gSEYtAjuZ-Y


Passo-a-passo:

  1. Ordene os dados do menor para o maior.
  2. Escolha intervalos disjuntos, ou seja, de maneira que cada observação possa ser incluída em exatamente um deles.
  3. Neste curso os intervalos são abertos à esquerda e fechados à direita (a,b].
  4. Construa uma tabela de frequências
  5. Desenhe o gráfico: a altura corresponde à frequência do intervalo.

Quantas intervalos (classes) devemos agrupar os dados?

  • Não há uma regra única. Se o número de classes for muito pequeno, perderemos informação, podendo camuflar variações interessantes na distribuição de frequências.

  • Por outro lado, um grande número de classes não contribui com o objetivo de ter uma visualização da distribuição de valores.

  • Uma regra sugerida por alguns autores é que o número de classes deve ser: \[k = \sqrt{n}, \ \ \mbox{ou} \ \ k = 1 + 3,3\log(n) \ \ \mbox{(Regra de Sturges)},\] onde \(n\) é o tamanho da amostra.

  • Os resultados obtidos por meio de fórmulas podem servir como referência, mas não devem ser entendidos como obrigatórios.

Exemplo: QI

Os dados a seguir representam o QI de 32 crianças de 12 anos de idade:

114, 122, 103, 118, 99, 105, 134, 125, 117, 106, 109, 104, 111, 127, 133, 111,
117, 103, 120, 98, 100, 130, 141, 119, 128, 106, 109, 115, 113, 121, 100, 130

Dados ordenados:

98, 99, 100, 100, 103, 103, 104, 105, 106, 106, 109, 109, 111, 111, 113, 114,
115, 117, 117, 118, 119, 120, 121, 122, 125, 127, 128, 130, 130, 133, 134, 141

Intervalos:
(95, 100]: 4 \(\qquad\) (120, 125]: 3
(100, 105]: 4 \(\qquad\) (125, 130]: 4
(105, 110]: 4 \(\qquad\) (130, 135]: 2
(110, 115]: 5 \(\qquad\) (135, 140]: 0
(115, 120]: 5 \(\qquad\) (140, 145]: 1

Exemplo: QI

Intervalos:
(95, 100]: 4 \(\quad\) (120, 125]: 3
(100, 105]: 4 \(\quad\) (125, 130]: 4
(105, 110]: 4 \(\quad\) (130, 135]: 2
(110, 115]: 5 \(\quad\) (135, 140]: 0
(115, 120]: 5 \(\quad\) (140, 145]: 1







Se apenas esse histograma dos QI’s fosse apresentado a você, que conclusões você tira?

Histograma

Histograma

Vamos fazer o histograma da variável AverageSleep do SleepStudy.

Como você analisa esse gráfico?

Ramo-e-folhas

Ramo-e-folhas: representa graficamente os dados sem perder nenhuma informação.

O gráfico de ramo-e-folhas (stem-and-leaf plot em inglês) é, basicamente, uma tabela num formato especial usada para representar dados quantitativos.

Veja um exemplo:

Cada observação (valor) é separado em duas partes: o ramo (colocado à esquerda) e as folhas (colocadas à direita).

Exemplo: Notas dos Alunos

Um professor apresenta à classe as notas do exame usando um gráfico de ramo-e-folhas.

Analisando esse gráfico, responda:

  • Qual o total de alunos?

  • Qual a menor nota?

  • Qual a maior nota?

  • Você conseguiria listar todas as notas?

Ramo-e-Folhas x Histograma

Vamos voltar nos dados de QI (ordenados):
98, 99, 100, 100, 103, 103, 104, 105, 106, 106, 109, 109, 111, 111, 113, 114,
115, 117, 117, 118, 119, 120, 121, 122, 125, 127, 128, 130, 130, 133, 134, 141

Gráfico ramo-e-folhas (à esquerda) e histograma (à direita):


Qual o tipo de informação você obtém através de um gráfico de ramo-e-folhas mas não não através de um histograma?

Exemplo: Passageiros

O número de passageiros transportados por um ônibus urbano em cada viagem é anotado. No total de 50 viagens temos os seguintes dados:

65, 93, 74, 78, 55, 100, 58, 71, 78, 79, 97, 85, 85, 101, 74, 102, 83, 86, 84, 72, 98, 68, 91, 106, 71, 80, 62, 77, 91, 65, 78, 102, 83, 97, 92, 75, 70, 96, 88, 53, 70, 83, 109, 95, 108, 67, 80, 99, 89, 82

Se organizarmos esses dados em forma de tabela de frequência, notaremos que o tamanho da tabela será enorme (muitas linhas), pois cada dado repete-se poucas vezes, não fornecendo informações suficientes sobre a distribuição de frequência.

A solução para este problema é agrupar os dados em classes (ou intervalos).

Distribuição de frequências para o número de passageiros
Freq. Absoluta Freq. Relativa Porcentagem (%)
(50,60] 3 0.06 6
(60,70] 7 0.14 14
(70,80] 13 0.26 26
(80,90] 10 0.20 20
(90,100] 11 0.22 22
(100,110] 6 0.12 12
Total 50 1.00 100

Frequência Acumulada

Frequência acumulada (ou Frequência absoluta acumulada ) é o total acumulado (soma) de todas as classes anteriores até a classe atual.

Frequência relativa acumulada é o quociente entre a frequência acumulada da classe e o total:

\[\textrm{Frequência relativa acumulada} = \frac{\textrm{Frequência acumulada}}{\textrm{Total}}\] e

\[\textrm{Porcentagem acumulada} = (\textrm{Frequência relativa acumulada} ) \times 100.\]

Exemplo: Passageiros

Voltado ao exemplo do número de passageiros transportados por um ônibus urbano, temos que:

Distribuição de frequências para o número de passageiros
Freq. Absoluta Freq. Relativa Porcentagem (%) Freq. Absoluta Acumulada Freq. Relativa Acumulada Porcentagem Acumulada (%)
(50,60] 3 0.06 6 3 0.06 6
(60,70] 7 0.14 14 10 0.2 20
(70,80] 13 0.26 26 23 0.46 46
(80,90] 10 0.20 20 33 0.66 66
(90,100] 11 0.22 22 44 0.88 88
(100,110] 6 0.12 12 50 1 100
Total 50 1.00 100

Leitura